查看原文
其他

当期荐读 2023年第2期 | 同行评议质量新探:同行评议意见挖掘研究综述

王勇臻 王贤文 信息资源管理学报 2024-01-09

图源 | Internet


王勇臻 王贤文


大连理工大学科学学与科技管理研究所暨WISE实验室,大连,116024


摘要

在开放式同行评议模式蔚然成风与自然语言处理技术日新月异的双重驱动下,同行评议质量的研究范式正在酝酿改变——同行评议意见挖掘已悄然兴起。纵观此变迁轨迹,在文献回顾的基础之上,本文系统地梳理了同行评议意见挖掘的代表性研究成果,旨在阐明这一新兴研究方向的概貌特征以及随之而来的机遇和挑战,为后续的探索实践提供借鉴与参考。结果显示,目前有关同行评议意见挖掘的研究工作主要围绕同行评议意见的预测能力、情感表达以及论辩逻辑三个方面展开,着重探讨各种文本挖掘方法在被用于解析同行评议意见时的可行性与有效性,且所使用的数据样本限于计算机科学领域的国际会议论文(英文)。

关键词


同行评议 同行评议质量 同行评议意见挖掘 文本挖掘 科技评价



01

 引言

同行评议是科技评价的重要手段,广泛应用于学术论文鉴审、科学基金分配、科研人才选拔等遴选程序中,一直扮演着“科学守门人”的角色[1]。尽管如此,同行评议并不完美——由于同行评议具有浓厚的主观色彩,不可避免地会催生出诸如马太效应[2]、埋没非共识创新[3]、防御性嫉贤妒能[4]、评委自恋[5]之类的扭曲现象。长期以来,关于同行评议质量的研究热度历久不衰,特别是近年来随着大规模撤稿屡见不鲜[6]、人工智能领域顶会审稿人鱼龙混杂[7]、低劣新冠论文泛滥成灾[8]等学术失范事件层出不穷,科学界对同行评议质量的关注与质疑更胜以往,不免令人心生疑惑:高质量的同行评议难道只是空中楼阁吗?同行评议能否得到切实有效的质量控制呢?若要回答这些问题,必须针对同行评议的事实全貌进行细致透彻的解读和分析。为此,专家学者们逐渐将目光投向同行评议意见挖掘,其原因不外乎如下三点:首先,同行评议意见忠实地记录着科技评价活动的过程及其结果,能够客观地反映评议专家的专业素养与工作态度;其次,随着开放科学运动的不断升温,越来越多的科技出版商(例如PLOS、Frontiers和BioMed Central)加入了公开同行评议数据的行列之中,为开展同行评议意见挖掘奠定了实践基础[9];再者,随着深度学习浪潮的日趋高涨,自然语言处理技术方面的突破性成果纷至沓来,为实施同行评议意见挖掘提供了理论支撑[10-11]。一时间,基于同行评议意见挖掘的同行评议质量研究犹如春风野火。

目前,同行评议意见挖掘正在重塑着同行评议质量的研究范式,它所倡行的内容分析法可以在一定程度上弥补过往研究(因采用指标演绎法而产生)的不足。在此,本文将围绕同行评议质量及其相关研究进行探讨,重点论述同行评议意见挖掘这一新兴研究方向的概貌特征以及随之而来的机遇和挑战,以期能够革新并加深对同行评议质量的认知与理解,从而为同行评议质量测度、同行评议质量控制乃至我国科技评价改革提供一些借鉴和参考。



02

同行评议质量的内涵:文献回顾的视角

同行评议质量的概念边界不易确定。迄今为止,科学界仍未对同行评议质量形成统一的认识[12]。为了便于对相关文献进行整理和评述,本文援引了普赖斯奖得主Lutz Bornmann关于这一概念的阐发与诠释。Bornmann[13]将同行评议质量归结为三大基本要素,即可靠性(reliability)、公平性(fairness)以及预见性(predictive validity)。具体而言,可靠性强调了针对同一评议对象的两份或多份(彼此独立的)评议结果理应相仿[14];公平性体现了同行评议所设想的科学伦理规范,即以客观事实作为评价依据,并摒弃一切形式的歧视与偏袒[15];预见性则凸显了同行评议背后的择优逻辑,即为决策主体——例如科技期刊编辑部、科学基金管理层和高校教师聘任委员会——甄选出未来最具发展潜力的学术论文、研究课题、科研人才等等[16-18]。总而言之,笔者认为,高质量的同行评议通常意味着其评议结果可以复现,且令受评者感到满意,更重要的是,能够合理高效地分配诸如期刊版面、研究经费、科研岗位之类的稀缺资源。

2.1 同行评议的可靠性

从概念上来看,可靠性与复现性两者非常相似。正因如此,早期的研究工作大都借助卡帕系数或组内相关系数来测度同行评议的可靠性,其目的在于衡量不同评议专家之间的评分一致性。这类实证研究的底层逻辑可以简要表述为:如果不同评议专家之间的评分一致性越强,则同行评议的可靠性越高,相应的评议结果也越有利于决策主体。过往研究表明,同行评议的可靠性与评议对象的素质水准呈非线性相关。例如,Cicchetti[14]通过调查发现,在综合性期刊中,低分稿件所获评分的一致性大多强于高分稿件,而在专业性期刊中,情况却恰恰相反——被拒稿件所获评分的一致性普遍弱于录用稿件。无独有偶,Ragone等[19]分析了计算机科学领域中约2800篇国际会议论文的同行评议数据,继而指出在鉴别“特优”和“特差”两类文章时,评议专家们之间的默契度相对较高。最近,刘欣等[20]以来自国际表征学习大会的5628篇稿件作为研究样本,再度揭示了同行评议的“择差”特质,即一众评议专家在所谓“劣”文章的界定上更容易取得共识。那么问题来了,假如面向的是“一般的”评议对象,同行评议的可靠性又将怎样?现实不容乐观。2010年,Bornmann等[21]针对不同评议专家之间的评分一致性进行了一项文献荟萃分析,并得出了如下结论:同行评议的可靠性极其有限。更有甚者,认为就学术论文鉴审而言,比起随机筛选,同行评议不过是五十步笑百步[22]。归根结底,评分不一致现象源于不同评议专家彼此在知识结构、从业经验、文化背景甚至时间投入等方面存在差异。因此,评分不一致状况的科学处理之法还在于找出主要分歧并弄清其中缘由。以第三十三届国际人工智能大会(AAAI’19)上一篇得分为8、2、7(10分制)的争议性稿件为例[7],审稿人#1与审稿人#3究竟在哪些评判标准上(例如原创水平和写作表达)达成了一致?审稿人#2所列举的拒稿理由又是否合情合理?同行评议意见挖掘或能给出人工仲裁之外的一种满意解。

2.2 同行评议的公平性

作为受评者的主观感受,同行评议的公平性甚难测度。刘昀等[23]采取问卷调查的形式,比较全面地了解了2019年度医学科学领域(呼吸和血液两门学科)国家自然科学基金项目申请人的满意度情况。他们发现,未获资助的项目申请人对函评意见感到不满意的比例明显高于已获资助的项目申请人,且前者中仅有约65%对函评意见的专业性表示认可。但是从基金管理人员的角度来看,未获资助项目所获函评意见的专业水准其实略微强于已获资助项目。由此可知,同行评议究竟公平与否,跟受评者(因评议结果而诱发)的心理状况息息相关。类似地,Hart-Davidson等[24]以同行评议意见是否对受评者有所助益作为考察标准,亦得出了大致相同的结论。尽管如此,我们还是不禁要问:是否存在其他方式来更加客观地衡量同行评议的公平性呢?既有研究工作给出了一些线索。例如,Bornmann等[25]以《应用化学(英文)》和《大气化学与物理》作为调查对象,利用语言探索与字词计数LIWC这一文本分析工具,对比了在封闭式与开放式两种审稿模式中产生的同行评议意见,结果表明,在封闭式审稿情境下,评议专家的语气通常更积极、正面;Ausloos等[26]以《塞尔维亚化学学会杂志》作为调查对象,借助齐普夫定律对同行评议意见的词频分布规律加以阐释,继而尝试将“好”评议专家和“坏”评议专家予以区分;Falkenberg等[27]以《海洋湖沼通报(英文)》作为调查对象,论证了同行评议意见的文本特征与评议专家的履职实效之间的内在联系,结果显示,有效力的同行评议意见具有较长的篇幅,且囊括了较多的形容词以供描述评议对象的重要性。无一例外,上述实证研究均选取了同行评议意见作为切入视角,同时都将关注焦点从“同行评议是否公平”这一相对主观的心理体验转换为“评议专家是否对评议对象负责”这一相对客观的事实基础。换言之,一名认真负责的评议专家,其工作作风应该是公正无私、实事求是的。鉴于此,同行评议意见挖掘或能给予所谓“负责任的科技评价”以更深刻的教益和启迪。

2.3 同行评议的预见性

同行评议的预见性之高低,取决于甄选出的评议对象在多大程度上具备发展潜力。截至目前,预见性的测度实践大都聚焦于评议结果与诸如学术论文出版后的引用影响力、基金项目获批后的科研产出量之类的绩效指标之间的关联度。例如,Bornmann等[28]以发表于《大气化学与物理》的111篇论文作为研究样本,继而宣称这些文章所获评分与其发表三年之后的被引频次呈正相关;檀旦[29]以被F1000平台推荐的428篇论文作为研究样本(其中259篇关于医学信息学,169篇关于糖尿病),F1000评分与被引频次之间存在正相关关系。谢维熙等[30]对提交至国际表征学习大会的2220篇稿件进行研究后,亦得出了类似的结论,即稿件得分与被引频次之间具有一定的正相关性。但现实远比想象中更复杂。Teplitskiy等[31]对发表于《美国社会学评论》的2337篇论文进行研究后,却否认这些文章所获评分可以准确地预测其未来的被引情况。无独有偶,Bartneck[32]对来自人机交互国际大会的89篇稿件进行研究后,也怀疑稿件得分与被引频次之间是否真的存在必然联系。话虽如此,仅仅根据评议结果来判断学术论文的科学价值,实在是失之偏颇,亦系“以刊评文”做法的局限所在。再来看美国国立卫生研究院(NIH)的基金资助效果,据《科学》报道,Li等[33]联合调查了超过130000项已获NIH资助项目的论文产出现状,结果发现,NIH项目所获评分越高,其论文发表数量以及相应的被引频次普遍越多。然而,Fang等[34]在重复了前者的实证分析之后却给出了不尽相同的看法,即如果着眼于评分排名前20%的NIH项目,则会发现这些项目所获评分不再能够有效地预测其自身的绩效表现。诚然,单凭此“证据”就推断出同行评议“功能性失灵”,未免欠妥。毕竟,“纯”评议结果并未充分地展现评议专家的专业素养和工作态度。立足于这一事实,同行评议意见挖掘或能施展拳脚。



03

透过同行评议意见洞察同行评议质量:文本挖掘的视角

一般而言,同行评议可视作一道流程或一套机制,其运行表现虽然无法直接观测,但是透过其产物,即同行评议意见,可见一斑[35]。诚然,同行评议意见的完成情况取决于评议专家所投入的时间精力以及所掌握的经验智慧。但人非圣贤,亦非草木。尽管能够对同行评议意见进行人工复核,这种做法的难度和成本却是不言而喻的。相较之下,智能化的同行评议意见质检程序则依循特定的文本分析算法,且具备可扩展性,亦不知疲倦[36]。近几年来,计算机科学领域中多家主流研讨会——例如第三十四届人工智能大会(AAAI’20)、第三十九届国际数据管理大会(SIGMOD’20)、第二十九届国际万维网大会(TheWebConf’20)、第二十七届国际数据挖掘与知识发现大会(SIGKDD’21)、第十四届国际互联网搜索与数据挖掘大会(WSDM’21)、第二十一届数字图书馆联合会议(JCDL’21)等——密集地举办了一系列关于“面向同行评议的人工智能应用”的专题讲座。眼下,日渐成熟的开放科学环境连同蓬勃发展的深度学习框架,一起为同行评议意见挖掘提供了赖以成长的土壤——以同行评议意见挖掘作为切入点的同行评议质量研究也就愈发显得顺理成章。为了更加全面地了解同行评议意见挖掘的研究现状和趋势,笔者以“开放式同行评议&自然语言处理技术”作为主题线索,针对2018年至2022年上半年之间国内外计算机科学领域发表的相关文献进行了梳理与归纳。基于此,本文将从同行评议意见的预测能力、情感表达以及论辩逻辑三个方面阐释有关同行评议意见挖掘的最新进展和代表性成果。

3.1  同行评议意见的预测能力

同行评议意见的预测能力,是指同行评议意见能够在多大程度上准确地估计出评议对象的发展潜力。目前,已有专家学者提出利用同行评议意见来预测学术论文的录用状态与引用影响力,且分别取得了不错的应用效果。在此,按照所预测的事件发生在学术论文出版之前或之后,本文将这些研究划分为刊前预测和刊后预测两类主题。

(1)刊前预测能力。2018年,Kang等[37]公开发布了第一份同行评议意见数据集PeerRead,其中收录了包括第二十七至第三十一届神经信息处理系统大会(NeurIPS’13-17)、第五届国际表征学习大会(ICLR’17)、第五十五届计算语言学协会年会(ACL’17)、第二十届计算自然语言学习大会(CoNLL’16)在内的多轮学术研讨会的3006篇稿件及其相关的10770份同行评议意见。在此基础之上,他们以神经网络语言模型(NNLM)作为技术依托,提出了一种联合使用文章正文(前1000字)与同行评议意见(前200字)的稿件得分预测方法,继而得出结论,即评议专家鲜少口是心非,大多数稿件所获同行评议意见与其评议结果保持品位一致。此后,Gao等[38]以第五十六届计算语言学协会年会(ACL’18)作为调研基点,定量地考察了文章作者对评议专家作出的答复(author rebuttal)是否会影响评议结果。他们首先收集了1542篇ACL’18稿件的同行评议意见及其相关的作者答复,然后制定了一项新颖的预测任务,即给定一篇稿件的同行评议意见和作者答复,由此预测评议专家是否会修改评分。经过反复实验,他们发现,作者答复对评议结果所能产生的影响微乎其微,且主要体现于边缘稿件(即得分接近于录用分数线的文章)。不仅如此,他们还指出评议专家具有一定的从众倾向——评议专家之所以会修改评分往往是出于对其他同行所作决断之认同甚至盲从。

(2)刊后预测能力。2019年,Li等[39]提出利用同行评议意见对学术论文未来的被引情况进行预测。他们以深度神经网络(DNN)作为技术依托,设计了两套针对同行评议意见的语义抽取机制,以期机器能够更深刻地学习如何抽象地表示同行评议意见,并据此进一步学习同行评议意见和被引频次之间的映射关系。除此之外,他们还在PeerRead的基础之上额外地补充了第一至第四届国际表征学习大会(ICLR’13-16)的同行评议数据。经过实验测试,他们证明了同行评议意见的确具备预测被引频次的功能和效用。事实上,Li等所做的探索工作沿袭了传统的研究范式,即根据评议结果与诸如学术论文出版后的引用影响力之类的绩效指标之间的关联度来衡量同行评议的预见性。但难能可贵的是,他们大大地扩宽了这条研究思路的实践边界——相较于“纯”评议结果,同行评议意见所包含的信息量显然更大,更适合用于推断评议对象的发展潜力。此后,他们又构建了一种更为复杂、精细的深度学习模型,力图从同行评议意见中提取出方面级别(aspect-level,例如关于原创水平、实验设计和写作表达)的语义特征,从而更加准确地预测学术论文未来的被引情况[40]。不难理解,更细粒度的文本挖掘方法势必会为同行评议意见的预测能力带来更强的可解释性——揭示评议专家究竟凭借哪些方面来判断评议对象的科学价值之大小。

3.2 同行评议意见的情感表达

情感分析,也称意见挖掘(opinion mining),属于文本挖掘的一个分支领域,旨在对带有情感色彩(例如褒义和贬义)的主观性文本进行分析,进而确定该文本所涵盖的观点乃至态度倾向[41]。从某种意义上说,情感分析缘结同行评议意见挖掘完全是在意料之中的——同行评议意见的情感表达,即评议专家对评议对象究竟是持正面、负面或中立的看法,是外界了解同行评议质量(尤其是同行评议的公平性)的一扇关键窗口。

2018年,Wang等[10]率先将情感分析引入到同行评议意见挖掘,致力于从同行评议意见中自动识别出含有褒贬意味的语句片段。他们以来自第五、第六连续两届国际表征学习大会(ICLR’17-18)的1444篇稿件及其相关的4392份同行评议意见作为研究样本,继而得出如下结论:除边缘稿件之外,大多数稿件所获同行评议意见都具有明确的情感极性,且与其评议结果大体相衬。自此以后,面向同行评议意见的情感分析研究如雨后春笋般涌现。例如,Ghosal等[42-43]主张利用同行评议意见中蕴含的情感信息来加强其刊前预测能力,并通过PeerRead数据集对这一策略的可行性与有效性进行了验证和确认。在此基础之上,Chakraborty等[44]和Kumar等[45]都提出针对同行评议意见开展方面级情感分析,其中涉及方面抽取与情感分类两项任务。不仅如此,Chakraborty等还指出,同行评议意见中有关研究问题的重要性、理论实践的合理性、语言表达的流畅性三个方面的情感极性与评议结果之间的关联度相对较高。除此之外,Thelwall等[46]依托F1000Research平台开发了一款面向同行评议意见的情感分析工具PeerJudge,其内部编录了一部囊括表情符号表、俚语表、疑问词表在内的情感词典,借此来检测评议专家对评议对象作出的称赞以及驳议。值得一提的是,他们还发现,就出版后同行评议而言,负评通常比好评更能体现评议专家所持的立场——好评基本上与评议专家所作决断无关。

反观国内,同行评议意见情感分析研究也方兴未艾。2021年,张明阳等[47]以来自第五至第八届国际表征学习大会(ICLR’17-20)的5527篇稿件及其相关的16853份同行评议意见作为研究样本,从原创水平、研究动机、实验设计、文献评述、写作表达等五个角度考察了评议专家的情感流露,并揭示了一系列与之相关的审稿现象。例如,原创水平和实验设计两项评判标准被更频繁地提及;大多数高于六分的稿件在研究动机和写作表达上未收到负评,尽管这些文章可能在原创水平、实验设计和文献评述上存有瑕疵;对稿件持正面态度的评议专家经常针对文章在研究动机、实验设计和写作表达三个方面所存在的不足之处给出修改建议。与此同时,林原等[48]提出借助基于深度学习的情感分析模型将学术论文所获同行评议意见以及社交媒体评论予以(矢)量化处理,并据此对其进行综合评价,即如果对应文本的情感极性为正向,则可以认为学术论文的质量较高。不仅如此,在技术层面上,他们还尝试运用正例-无标记学习方法(PU-learning)来提高同行评议意见内部观点句的辨识精度[49]

3.3 同行评议意见的论辩逻辑

论辩挖掘(argument mining)是自然语言处理技术与语用论辩理论相融合的产物,旨在自动提取出主观性文本内部的论辩结构,目前已成功落地于智慧司法、生物医学、人文教育、社交媒体等应用场景,系文本挖掘领域的新晋研究热点[50-51]。2021年由中国计算机学会主办的第十届国际自然语言处理和中文计算会议(NLPCC’21)发布了一场名为“面向智能辩论的论辩文本理解”的评测比赛,其中囊括了一项名为“同行评议意见及其配对作者答复当中的互动论点抽取”的挑战(Track’3)[52]。不经意间,以论辩逻辑为关注焦点的同行评议意见挖掘已纳入了同行评议质量研究的视野范围。按照论辩主体是评议专家单方或评议专家连同受评者双方,本文将这些研究划分为独白式论辩与对话式论辩两类主题。

(1)独白式论辩挖掘。从本质上来看,同行评议意见的撰写过程就像一场独白式论辩:评议专家依据个人的经验智慧,从不同角度陈述支持或反对评议对象的理由,以期说服决策主体采信评议结果。2019年,Hua等[11]首次专门面向同行评议意见开展了论辩单元识别与论辩成分分类两项任务。他们针对400份来自ICLR’18的同行评议意见进行了人工标注,总共获得了10386个论辩单元及其所属的五种论辩成分类型——点评、请求、事实、参考以及引用。在此基础之上,他们训练了一系列深度学习模型以供后续机器标注之用,并通过一份全新的同行评议意见数据集AMPERE证实了将论辩挖掘用于解析同行评议意见的可行性与有效性。不仅如此,他们还揭示了计算机科学领域中多家主流研讨会(例如ICLR’17-18)背后的若干审稿细节。例如,“特优”和“特差”两类文章所获同行评议意见中往往涵盖较少的论辩成分;评议专家甚少大段点评拟录用稿件或为其提供参考资料,却经常向边缘稿件提出修改要求(例如补充实验数据和增加对比实验)。类似地,Fromm等[53]亦采取人工标注与机器标注相结合的方式,构造了一份适用于论辩挖掘的同行评议意见数据集AMSR,再度确认了同行评议意见所具有的论辩属性。他们还指出,同行评议意见在篇幅长度、语气措辞等方面有别于其他类型的主观性文本(例如法律文书和电商评论)。因此,不可盲目地照搬已有的论辩挖掘范例来探讨同行评议意见内部的论辩结构。值得注意的是,尽管论辩挖掘与情感分析在处理同行评议意见时存在颇多共通点,前者强调的是从非结构化文本中提取出结构化论点,其目的偏重于寻找推理规则——例如各个论点之间是如何衔接的——而非情感极性。

(2)对话式论辩挖掘。就学术论文出版而言,在稿件退修阶段,文章作者通常需要针对评议专家提出的修改要求进行逐点答复。在某种程度上,这一过程可视作评议专家与受评者双方就稿件内容展开论辩和对话。受此启发,2020年,Cheng等[54]尝试从同行评议意见及其配对作者答复两端成对地抽取语义相近的互动论点,并以经由人工标注的4764份同行评议意见及其相关的作者答复作为研究样本(来自ICLR’13-20),初步地实现了对同行评议意见内部论辩结构的精细刻画。时隔一年之后,他们[55]又和Bao等[56]分别提出对同行评议意见及其配对作者答复当中的语义交互予以直接建模,由此进一步优化了两者之间互动论点的辨识精度。鉴于此,Sun等[57]开发了一系列改进版的互动论点抽取模型,同时采用了加权投票法来聚合全体计算结果,最终赢得了前述NLPCC’ 21评测比赛Track’ 3的冠军。简言之,这类实证研究致力于探查评议专家与受评者之间的互动交流,或将为测算同行评议质量开辟一条全新的“双轨式”思路。



04

主要研究结论与展望

同行评议作为我国科技评价体系的重要基石,其质量关乎我国科技创新力量的培育与提升。细数过往,想要深入、广泛地开展同行评议质量探析绝非易事。然而,在开放式同行评议模式蔚然成风与自然语言处理技术日新月异的双重驱动下,同行评议质量的研究范式正在酝酿改变——专家学者们相继借助同行评议意见挖掘这一内容分析解决方案,对同行评议的事实全貌进行细致透彻的解读和分析。纵观此变迁轨迹,本文在文献回顾的基础之上,将同行评议意见挖掘的代表性研究成果简要地概括为同行评议意见的预测能力、情感表达以及论辩逻辑三类主题,旨在为后续的探索实践提供些微的前沿性参考和阶段性借鉴。需要指出的是,目前有关同行评议意见挖掘的研究工作鲜少直接面向同行评议质量的测度与控制,大都侧重于探讨各种文本挖掘方法在被用于解析同行评议意见时的可行性与有效性,即从应用效果和推广前景的角度对同行评议质量予以间接评判。总而言之,笔者认为,同行评议意见挖掘之于同行评议质量研究,其科学价值与现实意义至少包括如下三个方面:

(1)质量测度多元化。毋庸置疑,同行评议意见挖掘可以为同行评议质量,即同行评议的可靠性、公平性和预见性的测度方法开辟更广阔的定义域以及操作空间。以可靠性为例,除了不同评议专家之间的评分一致性之外,一众同行评议意见在预测能力、情感表达以及论辩逻辑上是否彼此相仿,亦可用于衡量同行评议究竟可靠与否。关于公平性,受评者的主观感受将不再是其唯一的测算口径,同行评议意见的情感表达甚至论辩逻辑均可充当检测潜在歧视与偏袒的补充手段。而在预见性方面,同行评议意见远非“纯”评议结果堪比,能够更加翔实地展现评议专家的学术洞察力。

(2)定性定量融合化。2020年伊始,教育部、科技部两部委陆续印发了《关于破除科技评价中“唯论文”不良导向的若干措施(试行)》《关于规范高等学校SCI论文相关指标使用树立正确评价导向的若干意见》(以下简称《意见》)两份政策文件,明确提出“发挥同行评议在高质量成果考核评价中的作用”“鼓励定性与定量相结合的综合评价方式”等科技评价新导向[58-59]。简言之,同行评议作为定性评价的典范,如果能够合理地搭配定量评价模型,则可以达到优势互补、相辅相成的评鉴效果[60]。诚然,实现这一目标的关键在于定性评价定量化,而这正好是同行评议意见挖掘的“看家本领”。如此一来,不仅有助于更充分地利用评议专家的劳动果实和智慧结晶,更重要的是,还有助于更加科学全面地管控同行评议质量——同行评议意见连同一系列科学计量指标多管齐下,联手打破“SCI至上”的畸形局面。

(3)评议伦理规范化。2021年3月,国家自然科学基金委确立了三大改革任务,重点强调“建立负责任、讲信誉、计贡献(RCC)评审机制”,旨在敦促“评审专家公正履职”[61]。无独有偶,近年出台的《意见》亦提倡“引导学者在参加各类评审、评价、评估工作时遵守学术操守,负责任地提供专业评议意见”。显而易见,这两项举措均心系同行评议伦理,即评议专家、受评者以及决策主体三方之间的互动准则,其规范化之道不外乎如下两条:第一,评议专家须谨言慎行;第二,对评议专家论功行赏。具体而言,前者要求更积极地监督评议专家的言行举止,后者则主张更恰当地认可评议专家的学术贡献[62]。鉴于此,同行评议意见挖掘可谓应时而生,它所倡行的内容分析法能够巧妙地将评议专家的履职实效与同行评议意见的完成情况予以贯通,有望改善同行评议伦理治理的可操作性,进而从根源上解决同行评议质量所面临的各色问题。

综上所述并展望未来,以同行评议意见挖掘为切入点的同行评议质量研究还存在诸多亟待探索的方向。一方面,既有研究结论所依赖的数据样本限于计算机科学领域的国际会议论文(英文)。因此,在更丰富多样的同行评议情境下(例如面向中文同行评议数据)考察同行评议意见挖掘的功能和效用乃是当务之急,特别是从同行评议质量的测度与控制两个维度加以检视。另一方面,既有研究工作大都聚焦于现存文本挖掘方法与同行评议意见挖掘的适配性,而较少关注解析之后的同行评议意见究竟反映出了什么水平的同行评议质量。因此,有必要针对同行评议意见挖掘的实证结果展开更为深入的讨论和思考。例如,同行评议意见怎样才算高质量的同行评议?其预测能力怎样才算达标?其情感表达怎样才算合理,其论辩逻辑又怎样才算严谨?除此之外,由谁来主导同行评议意见挖掘系统的开发与管理?同行评议意见挖掘应以何种形式嵌入现有的同行评议流程(或机制),方能更好地平衡评议专家、受评者以及决策主体三方的权益与责任?如何通过同行评议意见挖掘来赋能我国科技评价改革?这一连串直面科技评价、科研管理、科学社会学等领域且富有挑战性的前沿课题,均具有非凡的理论和现实意义。


注:

①https://f1000.com/

②https://github.com/allenai/PeerRead

③https://github.com/UKPLab/naacl2019-does-my-rebuttal-matter

④https://github.com/RUCAIBox/Citation-Count-Prediction

⑤https://f1000research.com/

⑥http://sentistrength.wlv.ac.uk/PeerJudge.html

⑦http://xinyuhua.github.io/Resources/naacl19/

⑧https://zenodo.org/record/4314390

⑨https://github.com/LiyingCheng95/ArgumentPairExtraction



参考文献

[1] 罗燕,叶赋桂.同行评议:科学的守门人[N].光明日报,2021-01-12(13).

[2] Bol T, de Vaan M, van de Rijt A. The Matthew effect in science funding[J]. Proceedings of the National Academy of Sciences of the United States of America, 2018, 115(19): 4887-4890.

[3] Siler K, Lee K, Bero L. Measuring the effectiveness of scientific gatekeeping[J]. Proceedings of the National Academy of Sciences of the United States of America, 2015, 112(2): 360-365.

[4] Boudreau K J, Guinan E C, Lakhani K R, et al. Looking across and looking beyond the knowledge frontier: Intellectual distance, novelty, and resource allocation in science[J]. Management Science, 2016, 62(10): 2765-2783.

[5] Gillies D. Selecting applications for funding: Why random choice is better than peer review[J]. RT. A Journal on Research Policy and Evaluation, 2014, 2(1): 3834.

[6] 任孟山.国际学术发表为何频现撤稿[N].光明日报,2020-05-11(2).

[7] 闻菲.AAAI 2019评审惹争议!“好论文”遭退稿?程序主席回应[EB/OL]. [2018-11-02]. https://www.sohu.com/a/272812852_473283.

[8] London A J, Kimmelman J. Against pandemic research exceptionalism[J]. Science, 2020, 368(6490): 476-477.

[9] 常唯,袁境泽.国际学术出版中的同行评议进展与展望[J].中国科技期刊研究,2020,31(10):1181-1192.

[10]Wang K, Wan X. Sentiment analysis of peer review texts for scholarly papers[C]//Proceedings of the 41st International ACM SIGIR Conference on Research & Development in Information Retrieval, Ann Arbor MI. New York: ACM, 2018: 175-184.

[11]Hua X, Nikolov M, Badugu N, et al. Argument mining for understanding peer reviews[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Minneapolis, Minnesota. Stroudsburg: Association for Computational Linguistics, 2019: 2131-2137.

[12]Sizo A, Lino A, Reis L P, et al. An overview of assessing the quality of peer review reports of scientific articles[J]. International Journal of Information Management, 2019, 46: 286-293.

[13]Bornmann L.Scientific peer review[J].Annual Review of Information Science and Technology,2011,45(1):197-245.

[14]Cicchetti D V. The reliability of peer review for manuscript and grant submissions: A cross-disciplinary investigation[J]. Behavioral and Brain Sciences, 1991, 14(1): 119-135.

[15]Long J S, Fox M F. Scientific careers: Universalism and particularism[J]. Annual Review of Sociology, 1995, 21: 45-71.

[16]Bornmann L, Daniel H D. The effectiveness of the peer review process: Inter-referee agreement and predictive validity of manuscript refereeing at Angewandte Chemie[J]. Angewandte Chemie (International Ed.in English), 2008, 47(38): 7173-7178.

[17]Abrams P A. The predictive ability of peer review of grant proposals: The case of ecology and the US National Science Foundation[J]. Social Studies of Science, 1991, 21(1): 111-132.

[18]Bornmann L, Daniel H D. Committee peer review at an international research foundation: Predictive validity and fairness of selection decisions on post-graduate fellowship applications[J]. Research Evaluation, 2005, 14(1): 15-20.

[19]Ragone A, Mirylenka K, Casati F, et al. On peer review in computer science: Analysis of its effectiveness and suggestions for improvement[J]. Scientometrics, 2013, 97(2): 317-356.

[20]刘欣,李江,吴金闪.同行评议一致性研究[J].信息资源管理学报,2021,11(6):10-16,94.

[21]Bornmann L, Mutz R, Daniel H D. A reliability-generalization study of journal peer reviews: A multilevel meta-analysis of inter-rater reliability and its determinants[J]. PLoS One, 2010, 5(12): e14331.

[22]Lindsey D. Assessing precision in the manuscript review process: A little better than a dice roll[J]. Scientometrics, 1988, 14(1): 75-82.

[23]刘昀,梁雪,廖丹颖,等.国家自然科学基金项目的函评意见质量现况与分析——以2019年医学科学部两学科的面上、青年科学基金项目为例[J].中国科学基金,2020,34(5):630-634.

[24]Hart-Davidson W, McLeod M, Klerkx C, et al. A method for measuring helpfulness in online peer review[C]//Proceedings of the 28th ACM International Conference on Design of Communication, So Paulo. New York: ACM, 2010: 115-121.

[25]Bornmann L, Wolf M, Daniel H D. Closed versus open reviewing of journal manuscripts: How far do comments differ in language use?[J]. Scientometrics, 2012, 91(3): 843-856.

[26]Ausloos M, Nedic O, Fronczak A, et al. Quantifying the quality of peer reviewers through Zipf’ s law[J]. Scientometrics, 2016, 106(1): 347-368.

[27]Falkenberg L J, Soranno P A. Reviewing reviews: An evaluation of peer reviews of journal article submissions[J]. Limnology and Oceanography Bulletin, 2018, 27(1): 1-5.

[28]Bornmann L, Marx W, Schier H, et al. From black box to white box at open access journals: Predictive validity of manuscript reviewing and editorial decisions at Atmospheric Chemistry and Physics[J]. Research Evaluation, 2010, 19(2): 105-118.

[29]檀旦.F1000与传统文献计量学指标的相关性研究[J].中国科技期刊研究,2016,27(1):111-115.

[30]谢维熙,张光耀,王贤文.开放同行评议视角下学术论文同行评议得分与被引频次的关系[J].中国科技期刊研究,2022,33(1):113-121.

[31]Teplitskiy M, Bakanic V. Do peer reviews predict impact? Evidence from the American sociological review, 1978 to 1982[J]. Socius: Sociological Research for a Dynamic World, 2016, 2: 2378023116640278.

[32]Bartneck C. Reviewers’scores do not predict impact: Bibliometric analysis of the proceedings of the human-robot interaction conference[J]. Scientometrics, 2017, 110(1): 179-194.

[33]Li D, Agha L. Big names or big ideas: Do peer-review panels select the best science proposals?[J]. Science, 2015, 348(6233): 434-438.

[34]Fang F C, Bowen A, Casadevall A. NIH peer review percentile scores are poorly predictive of grant productivity[J]. eLife, 2016, 5: e13323.

[35]盛怡瑾,初景利.同行评议质量控制方法研究进展[J].出版科学,2018,26(5):46-53.

[36]Price S, Flach P A. Computational support for academic peer review: A perspective from artificial intelligence[J]. Communications of the ACM, 2017, 60(3): 70-79.

[37]Kang D, Ammar W, Dalvi B, et al. A dataset of peer reviews (PeerRead): Collection, insights and NLP applications[C]//Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, New Orleans. Stroudsburg: Association for Computational Linguistics, 2018: 1647-1661.

[38]Gao Y, Eger S, Kuznetsov I, et al. Does my rebuttal matter? Insights from a major NLP conference[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Minneapolis. Stroudsburg: Association for Computational Linguistics, 2019: 1274-1290.

[39]Li S, Zhao W X, Yin E J, et al. A neural citation count prediction model based on peer review text[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, Hong Kong. Stroudsburg: Association for Computational Linguistics, 2019: 4914-4924.

[40]Li S, Li Y, Zhao W X, et al. Interpretable aspect-aware capsule network for peer review based citation count prediction[J]. ACM Transactions on Information Systems, 2021, 40(1): Article 11.

[41]周建,刘炎宝,刘佳佳.情感分析研究的知识结构及热点前沿探析[J].情报学报,2020,39(1):111-124.

[42]Ghosal T, Verma R, Ekbal A, et al. DeepSentiPeer: Harnessing sentiment in review texts to recommend peer review decisions[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence. Stroudsburg: Association for Computational Linguistics, 2019: 1120-1130.

[43]Ghosal T, Verma R, Ekbal A, et al. A sentiment augmented deep architecture to predict peer review outcomes[C]//Proceedings of the 2019 ACM/IEEE Joint Conference on Digital Libraries, Champaign Illinois. Piscataway: IEEE, 2019: 414-415.

[44]Chakraborty S, Goyal P, Mukherjee A. Aspect-based sentiment analysis of scientific reviews[C]//Proceedings of the 2020 ACM/IEEE Joint Conference on Digital Libraries, Online. Piscataway: IEEE, 2020: 207-216.

[45]Kumar S, Ghosal T, Bharti P K, et al. Sharing is caring! Joint multitask learning helps aspect-category extraction and sentiment detection in scientific peer reviews[C]//Proceedings of the 2021 ACM/IEEE Joint Conference on Digital Libraries, Online. Piscataway: IEEE, 2021: 270-273.

[46]Thelwall M, Papas E R, Nyakoojo Z, et al. Automatically detecting open academic review praise and criticism[J]. Online Information Review, 2020, 44(5): 1057-1076.

[47]张明阳,王刚,彭起,等.学术论文公开评审平台数据分析[J].计算机科学,2021,48(6):63-70.

[48]林原,王凯巧,丁堃,等.学术论文的定性评价定量化研究[J].情报理论与实践,2021,44(8):28-34.

[49]林原, 王凯巧, 杨亮, 等. 基于pu-learning的同行评议文本情感分析[J/OL]. 计算机工程与应用. [2021-12-09].https://kns.cnki.net/kcms/detail/11.2127.TP.20211208.0449.002.html.

[50]李永泽,欧石燕.论辩挖掘研究综述[J].图书情报工作,2020,64(19):128-139.

[51]徐健,黄雨馨,王唯一,等.2014—2020年间论辩挖掘研讨会研究述评[J].现代情报,2021,41(9):167-176.

[52]Yuan J, Cheng L, He R, et al. Overview of argumentative text understanding for AI debater challenge[C]//Proceedings of the 10th CCF International Conference on Natural Language Processing and Chinese Computing, Qingdao. Cham: Springer, 2021: 548-568.

[53]Fromm M, Faerman E, Berrendorf M, et al. Argument mining driven analysis of peer-reviews[C]//Proceedings of the AAAI Conference on Artificial Intelligence Online. Burnaby: PKP Publishing Services, 2021, 35(6): 4758-4766.

[54]Cheng L, Bing L, Yu Q, et al. APE: Argument pair extraction from peer review and rebuttal via multi-task learning[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, Online. Stroudsburg: Association for Computational Linguistics, 2020: 7000-7011.

[55]Cheng L, Wu T, Bing L, et al. Argument pair extraction via attention-guided multi-layer multi-cross encoding[C]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing, Online. Stroudsburg: Association for Computational Linguistics, 2021: 6341-6353.

[56]Bao J, Liang B, Sun J, et al. Argument pair extraction with mutual guidance and inter-sentence relation graph[C]//Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, Online and Punta Cana. Stroudsburg: Association for Computational Linguistics, 2021: 3923-3934.

[57]Sun J, Zhu Q, Bao J, et al. A hierarchical sequence labeling model for argument pair extraction[C]//Proceedings of the 10th CCF International Conference on Natural Language Processing and Chinese Computing, Qingdao. Cham: Springer, 2021: 472-483.

[58]科技部. 《关于破除科技评价中“唯论文”不良导向的若干措施(试行)》的通知[EB/OL]. [2020-02-17]. http://www.most.gov.cn/xxgk/xinxifenlei/fdzdgknr/fgzc/gfxwj/gfxwj2020/202002/t20200223_151781.html.

[59]教育部, 科技部. 《关于规范高等学校SCI论文相关指标使用 树立正确评价导向的若干意见》的通知[EB/OL]. [2020-02-20]. http://www.moe.gov.cn/srcsite/A16/moe_784/202002/t20200223_423334.html.

[60]张琳,Sivertsen G.科学计量与同行评议相结合的科研评价——国际经验与启示[J].情报学报,2020,39(8):806-816.

[61]国家自然科学基金委. 2021年“负责任、讲信誉、计贡献”评审机制试点工作[EB/OL]. [2021-03-29]. https://www.nsfc.gov.cn/publish/portal0/tab442/info80801.htm.

[62]李江.认可审稿人的学术贡献[J].图书情报知识,2018(5):2.



(收稿日期:2022-06-11)



作者简介

王勇臻,副教授,硕士生导师,研究方向为文本挖掘与信息计量;

王贤文(通讯作者),教授,博士生导师,研究方向为科学计量与科技管理,Email: xianwenwang@dlut.edu.cn。

* 原文载于《信息资源管理学报》2023年第2期,欢迎个人转发,公众号转载请联系后台。


* 引用格式

王勇臻,王贤文.同行评议质量新探:同行评议意见挖掘研究综述[J].信息资源管理学报,2023,13(2):125-134.


往期 · 推荐

往期荐读 2021年第6期·特约稿 | 同行评议一致性研究

当期目录 | 2023年第2期

当期荐读 2023年第2期 | 破除数字平台企业算法黑箱治理困境:基于算法透明策略扩散研究

当期荐读 2023年第2期 | 欧盟数据与算法安全治理:特征与启示

当期荐读 2023年第2期 | 基于研究主题和引文分析的信息资源管理学科发展探究



▲点击访问信息资源管理学报小程序


制版编辑 | 王伊杨

审核 | 于阿媛



长按识别二维码关注我们

信息资源管理学报

微信号

xxzyglxb





分享、在看与点赞

只要你点,我们就是朋友😊



继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存